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基于 动态 Bloomfilter 的 云 存 储 安全 去 重 方案 
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摘 E: 现 有 的 所 有 权证 明 去 重 方案 容易 遭受 诚实 但 好 奇 服务 器 的 威胁 影响 ， 借 助 可 信 第 三 方 解 决 该 问题 将 导致 开销 
过 大 。 基 于 动态 Bloom filter 提出 一 种 改进 的 、 无 需 可 信 第 三 方 的 所 有 权证 明 安 全 去 重 方案 , 采用 收敛 加 密 算 法 抵抗 诚 
实 但 好 奇 的 服务 器 ， 并 通过 服务 器 检查 数据 块 密 文 和 标签 的 一 致 性 来 防止 数据 污染 攻击 。 此 外 ， 采 用 密 钥 链 机 制 对 收 
敛 密 钥 进行 管理 ， 解 决 了 现 有 方案 中 收敛 密 钥 占用 过 多 存储 空间 的 问题 。 分 析 与 比较 表明 ， 该 方案 具有 和 较 小 的 密 钥 存 
储 开销 和 传输 开销 。 
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Secure deduplication scheme based on dynamic Bloom filter in cloud storage 


Wang Pingyan, Liu Yi 
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Abstract: Existing Proof of Ownership schemes are vulnerable to the threat of honest-but-curious servers. With the help of a 
trusted third party to solve the problem can lead to high overhead. This paper proposed an improved Proof of Ownership 
scheme based on Dynamic Bloom Filter, which doesn't require a trusted third party. The scheme uses convergent encryption 
against honest-but-curious servers. To resist data poisoning attack, it checks whether the encrypted blocks correspond with the 
tokens at server side. Moreover, a key chaining mechanism is used to solve the problem that convergent keys require too much 
storage space in existing schemes. Analyses and comparisons show that the scheme has lower key storage overhead and 
transferring overhead. 
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y ownership, POW) 的 概念 ， 用 户 必 须 通 过 所 有 权证 明 才 能 拥有 
文件 的 权限 ， 但 该 方案 客户 端的 计算 开销 和 IO 开销 过 大 。Di 

随 着 云 计算 技术 的 不 断 发 展 ， 越 来 越 多 的 用 户 选择 将 数据 Pietro 等 人 甸 提 出 一 种 改进 的 方案 s-PoW , 通过 选取 文件 中 随机 
外 包 给 云端 进行 存储 和 管理 。The CISCO Global Cloud ”的 比特 来 对 用 户 进行 验证 ， ie 
Index(2015-2020) 显 示 山 ，2015 年 ， 全 球 数据 中 心 业务 总 量 为 。” 带宽 消耗 ， 但 在 服务 器 端 效 率 较 低 。Blasco 等 人 中 提出 基于 
4.7ZB， 其 中 云 数据 业务 3.8ZB， 占 比 81%; 预计 在 2020 年 ， Bloom filter 的 方案 bf-PoW， 云 服务 器 通过 Bloom filter 能 够 快 
全 球 数据 中 心 业务 总 量 增长 三 倍 将 达到 15.3ZB, 其 中 云 数据 业 ” 速 验 证 用 户 的 响应 结果 , 该 方案 在 服务 器 端 相 比 s-PoW 方案 效 
J 14.1ZB, 占 比 92%。 面 对 空 前 庞大 规模 的 数据 量 , 如 何 经 济 、 KER, 然而 存在 着 Bloom filter 误 判 率 随 元 素 增加 而 不 断 增 
高 效 、 安 全 地 进行 数据 存储 ， 是 云 服 务 提 供 商 迫 切 需要 解决 的 iip B. Yu 等 人 轩 提 出 了 一 种 适 Bd PoW 去 重 
一 个 难题 。 案 , 提高 了 客户 端的 效率 。 由 于 上 案 未 考虑 数据 机 密 性 ， 
数据 去 重 (deduplication ) 技术 , 也 称 为 重复 数据 删除 技术 ， 容易 遭受 诚实 但 好 奇 (honest-but-curious ) 服务 器 的 威胁 钙 ， 一 
是 一 种 消除 宛 余 文 件 或 文件 内 部 见 余数 据 块 的 技术 。 由 于 该 技 ” 些 方案 400 世 借助 可 信 第 三 方 进行 数据 管理 ， 从 而 保证 了 用 户 数 
术 仅 保留 一 份 数据 副本 ， 因 此 可 以 极 大 地 节省 云 存储 空间 2331。 据 的 机 密 性 。 然 而 ， 增 加 可 信 第 三 方 使 得 开销 过 大 ， 在 实际 的 
型 的 存储 系统 常常 采取 文件 的 摘要 作为 用 户 的 文件 拥有 云 服务 系统 中 难以 实现 。Gonzélez-Manzano 等 人 05 提 出 一 种 结 
凭证 ， 导 致 攻击 者 仅 凭借 文件 的 摘要 就 可 以 获得 整个 文件 中。 合 收敛 加 密 算法 、 无 可 信 第 三 方 的 ce-PoW 方案 ， 有 效 防止 诚 
针对 于 此 ，Halevi 等 人 外 首次 提出 了 所 有 权证 明 (proof of ” 实 但 好 奇 的 服务 器 查看 文件 ， 同 时 还 考虑 了 数据 污染 攻击 的 问 
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题 ， 但 该 方案 收敛 密 钥 占用 了 客户 端 较 大 的 存储 空间 。 刘 竹 松 
等 人 09 基 于 Bloom filter 提出 一 种 结合 收敛 加 密 的 高 效 安全 去 
重 方案 , 但 该 方案 未 考虑 Bloom filter 误 判 率 增长 的 问题 , 2f H 
不 能 抵抗 污染 攻击 。 张 曙光 等 人 17 提出 一 种 无 需 可 信 第 三 方 的 
自 适 应 重复 数据 删除 方案 ， 首 先 检 查 数据 的 流行 度 ， 当 数据 为 
非 流行 数据 时 ， 借 助 PAKE 协议 进行 密 钥 传递 。 由 于 PAKE 协 
议 共享 密 钥 需要 双方 同时 在 线 ， 因 此 该 方案 在 实用 性 方面 受到 
限制 。 

针对 上 述 方案 存在 的 缺陷 , 本 文 基于 动态 Bloom filter 提出 
了 一 种 无 需 可 信 第 三 方 的 所 有 权证 明 方案 DBF-Dedup. KYK 
通过 对 Bloom Filter 的 状态 进行 动态 管理 ， 有 效 缓解 Bloom 
Filter 误 判 率 的 快速 增长 问题 ; 采用 收敛 加 密 算法 保证 了 数据 机 
密 性 ， 同 时 采用 密 钥 链 机 制 来 管理 收敛 密 钥 ,解决 了 密 钥 管 理 
的 难题 。 


1 ”问题 描述 


1.1 系统 模型 

如 图 1 所 示 ， 本 文 方案 的 系统 模型 包括 云 服务 提供 商 
CCSP) 和 用 户 〈User) 。 

a) 云 服务 提供 商 〈CSP) 。 提 供 外 包 数 据 服务 的 实体 ， 由 
主 服务 器 和 存储 服务 器 构成 。 主 服务 器 负责 文件 重复 性 检测 、 
生成 挑战 数据 和 验证 标签 等 ， 存 储 服 务 器 负责 存储 文件 的 数据 
块 密 文 ， 向 合法 用 户 发 送 其 申请 访问 的 文件 。 

b) 用 户 Cuser) 。 外 包 数 据 存储 到 云 存 储 系 统 的 实体 。 对 
于 云 存 储 系统 中 未 存在 的 数据 ， 用 户 只 需要 上 传 一 次 ; 对 于 云 
存储 系统 中 已 经 存在 的 数据 ， 用 户 只 需要 通过 所 有 权证 明 即 可 
获得 数据 权限 ， 不 需要 重复 上 传 ， 节 省 了 带宽 消耗 。 
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图 1 系统 模型 


1.2 威胁 模型 

在 本 文 方案 的 威胁 模型 中 ， 将 攻击 者 来 源 分 两 大 类 : 
引 内 部 攻击 者 。 通 常 指 的 是 来 自 CSP 内 部 的 恶意 员工 ， 他 

们 的 目标 是 从 用 户 存 储 的 数据 中 获取 有 价值 的 信息 ， 甚 至 会 与 
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2 ”预备 知识 


2.1 Bloom filter 

Bloom filter08 是 一 种 高 效 的 概率 性 数据 结构 ， 用 于 判断 某 
个 元 素 是 否 属于 特定 的 集合 ， 通 常 由 1 个 二 进 制 向 量 和 大 个 相 
互 独立 的 哈 希 函数 组 成 。 设 一 个 Bloom filter 中 有 m 比特 的 二 
进 制 向 量 ， 初 始 化 所 有 比特 位 为 0。 集合 中 有 n 个 元 素 ， 每 个 
元 素 通过 计算 个 哈 希 函数 { 嫩 , Ho, ..., 了} 映射 到 {1, 2, ..., m) 
的 范围 中 。 当 插入 元 素 x 时 ,将 个 哈 希 函数 映射 的 位 置 Hi) 
为 1。 如 图 2 所 示 ，n=2，k=3， 箭 头 指 向 的 地 方 即 是 哈 希 函 
数 映射 的 比特 位 ， 将 其 置 为 1。 


图 2 Bloom Filter 映射 方法 示意 图 
当 查 询 某 个 数据 对 象 s 时 ， 计 算 {Hi(s), H2(s),.…, HiCs)), 
查看 映射 位 置 是 否 全 为 1, 若 不 全 为 1, 则 判断 该 集合 一 定 不 包 
Es Hl 8 很 可 能 属于 该 集合 ， 但 也 有 一 定 概 率 出 现 误 
判 。 假 设 某 个 不 属于 集合 的 元 素 的 大 个 函数 映射 位 置 恰好 全 为 
1， 则 会 误 判 该 元 素 属 于 集合 ， 这 种 现象 被 称 为 假 阳性 Cfalse 
positives) ， 而 且 当 集合 中 元 素 越 多 误 判 率 就 越 高 。 元 素 存在 
的 误 判 率 为 prs 


p -ü-a- yy s-e") (1) 
m 


除 此 之 外 , Bloom Filter 另 一 个 缺陷 是 不 能 删除 已 存在 的 元 
素 。 

针对 以 上 缺点 ,采用 动态 Bloom filter(dynamic Bloom filter, 
DBF) 能 有 效 控制 误 判 率 的 增加 。 动态 Bloom filter 由 若干 个 
标准 Bloom filter (standard Bloom filterSBF) 组成。 初始 阶段 
DBF 中 的 SBF 数量 是 1， 状 态 是 active， 表 示 误 判 率 小 于 上 限 
值 ， 随 着 不 断 插入 新 的 元 素 ， 最 后 状态 将 变 为 ful1!， 即 误 判 率 
达到 上 限 值 ， 此 时 增加 一 个 新 的 SBF， 确 保 状 态 一 直 是 active. 
通过 监控 SBF 的 状态 并 保持 动态 更 新 ， 有 效 控制 了 误 判 率 。 除 
了 插入 操作 ，DBF 还 可 以 执行 查询 、 删 除 、 合 并 等 操作 。 

DBF 需要 初始 化 以 下 几 个 参数 : DBF 的 最 大 误 判 率 ，SBF 
数量 s 的 上 限 值 ，SBF 的 最 大 误 判 率 ， 集 合 中 元 素 个 数 n， 单 
个 SBF 的 大 小 m, 单个 SBF 的 容量 c, 单个 SBF 的 哈 希 函数 数 


外 部 攻击 者 进行 串 谋 。 另 外 ， 内 部 攻击 者 可 能 为 了 达到 某 些 


量 k。 易 知 s=[n/c|。 


的 而 破坏 数据 的 完整 性 。 
b) 外 部 攻击 者 。 通 常 指 的 是 来 自 CSP 外 部 的 攻击 者 ， 他 们 
图 冒充 合法 的 用 户 来 获取 云 存储 系统 中 的 数据 。 外 部 攻击 者 
能 从 其 他 地 方 得 到 部 分 信息 ， 比 如 文件 的 摘要 ， 和 希望 通过 该 
息 来 获得 全 部 的 数据 。 外 部 攻击 者 可 能 与 合法 的 用 户 进行 合 
作 ， 或 与 内 部 攻击 者 进行 串 谋 。 


mp B 


ni 


2.2 ”收敛 加 密 
收敛 加 密 (convergent encryption,CE) 算 法 R90 是 一 种 确定 性 
加 密 算法 ， 收 敛 密 钥 由 数据 内 容 产生 ， 确 保 由 相同 的 数据 得 到 
相同 的 密 钥 。 一 个 收敛 加 密 方 案由 以 下 基本 密码 原 语 构 成 : 
KeyGen(F) => K: 收敛 密 钥 产生 算法 。 输 入 数据 明文 F, 
输出 收敛 密 钥 及。 其 中 ， 密 钥 K 通常 由 哈 希 函数 H 生成 ， 即 
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K-H(F). 
Encrypt(K, F) => C: 加 密 算法 。 输入 收敛 密 钥 K 和 明文 F, 
输出 经 过 加 密 后 的 密 文 C。 
Decrypt(K, C) => F: 解密 算法 ,输入 收敛 密 钥 K 和 密 文 C, 
输出 经 过 解密 后 的 明文 F. 
TagGen(F) => Tr: 标签 产生 算法 。 输 入 数据 明文 F. deu 
对 应 的 标签 Tro 


3 方案 设计 
3.1 符号 说 明 

k 是 数据 块 划分 参数 ，PRE 表示 伪 随 机 函数 ，seed 是 初始 
化 种 子 ，B; 表 示 第 i 个 数据 块 ，Ci 表示 第 i 个 密 文 数据 块 ，K; 
表示 第 i 个 数据 块 的 收敛 密 钥 ，Cki 示 第 i 个 数据 块 的 收敛 密 钥 
EX, tokeni 表示 第 i 个 密 文 数据 块 的 标签 ，hc 是 {tokeni} 的 摘 
XE. J 是 挑战 数据 块 的 数量 值 。 

3.2 系统 初始 化 

aH (user)。 初 始 化 收敛 加 密 方 案 的 四 个 算法 (KeyGen,， 
Encrypt, Decrypt, TagGen) 和 用 于 所 有 权证 明 的 PoW 算法 。 

b) 云 服务 提供 商 (CSP)〉 。 初 始 化 用 于 存储 元 数据 如 文件 
标签 、 动 态 Bloom Filter 的 存储 系统 ， 包 括 k AA RRHH, 
Ho, ..., Hk} o 
3.3 文件 上 传 

文件 上 传 的 主要 流程 如 图 3 所 示 。 有 具体 的 步骤 如 下 所 述 : 

a) 用 户 发 送 文 件 下 的 大 小 至 服务 器 。 

中) 服务 器 返回 数据 块 划分 参数 ko 

co) 用 户 根 据 庆 将 文件 划分 为 n 个 数据 块 {Bi(1 < iS n) i 
算得 收敛 密 钥 Ki = KeyGen(B)， 利 用 收敛 密 钥 计 算 密 文 数据 块 
Ci = Encrypt(Ki, Bi)， 计 算 密 文 数据 块 的 标签 tokeni = H(Bi)， 计 
算 所 有 标签 的 摘要 he = H(token)。 用 户 上 传 he 至 服务 器 。 

d) 服 务 器 检查 是 否 已 存在 h.， 若 存在 重复 ， 则 转 到 Step5， 
对 用 户 发 起 验证 挑战 ， 否 则 转 到 Step6， 要 求 用 户 上 传 文件 。 

e) FEER). (a) 服务 器 发 起 挑战 ， 随 机 选择 7 个 数 
据 块 索引 发 送 给 用 户 ; b) 用 户 响 应 挑战 ， 将 对 应 的 7 个 数据 
块 的 标签 {tokenj} 返 回 服务 器 ; CO 服务 器 将 token 值 作为 seed 
初始 化 PRF 得 到 J 个 输出 结果 ,利用 Bloom Filter 哈 希 函数 {Hi 
Ho, ..., Hk} 对 输出 结果 计算 后 映射 到 比特 位 ， 若 结果 全 为 1， 则 
表示 用 户 通 过 文件 所 有 权证 明 , 服 务 器 记录 用 户 获得 文件 权限 ; 
否则 ， 用 户 挑战 失败 。(d) 用 户 获 得 文件 权限 后 ， 将 第 一 个 数 
据 块 的 收敛 密 钥 Ki 保存 在 本 地 ， 用 于 以 后 从 CSP 中 下 载 文件 
时 对 密 钥 密 文 进行 解密 。 

f 无 重复 ) 。 (a) 用 户 采 用 密 钥 链 机 制 Ck; = E(Ki1, KD)(2 
<i<n) 计 算得 到 收敛 密 钥 的 密 文 {Cr}, 即 利用 前 一 个 密 钥 加 密 
后 一 个 密 钥 ;(b) 用 户 保存 Ki 在 本 地 ， 将 {Ci}、{Cgi} 上 传 到 服务 
器 ;，(c) 为 了 防止 污染 攻击 ， 服 务 器 根据 {Ci} 重 新 计算 {tokeni} 
M h'o HP ERR he 进行 对 比 ， 若 hc = 大 成 立 ， 则 数据 上 
传 成 功 ， 否 则 ， 说 明 密 文 数据 块 与 标签 不 一 致 ， 对 该 用 户 返 区 
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和 警告， 数据 上 传 失败 ; Cd) 数据 上 传 成 功 后 ， 服 务 器 创建 一 个 
动态 Bloom filter, 服务 器 将 token 值 作 为 seed 初始 化 PRF 并 产 
H 


生 相 应 的 输出 结果 ， 将 输出 结果 插入 到 Bloom filter， 对 应 的 比 
特 位 都 置 为 1; Ce) 检测 Bloom filter 的 状态 (active W full) ， 
EX ful1， 则 创建 一 个 新 的 Bloom filter. 


User: 上 传 h 至 CSP 


CSP: 发 起 挑战 
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User: 响 应 挑战 


CSP: 记 录 User 拥 
有 权限 


CSP: 存 储 密 文 、 


密 钥 等 


终止 操作 


图 3 文件 上 传 流程 图 


3.4 文件 下 载 
户 请 求 下 载 文件 下 时 的 步骤 如 下 : 

dg) 用 户 向 服务 器 请 求 下 载 文件 F. 

b) 服 务 器 收 到 请 求 ， 首 先 核对 用 户 的 ID: 车 无 访问 权限 则 
返回 警告 ， 若 有 访问 权限 则 将 文件 密 文 块 {Ci} 和 收敛 密 钥 的 密 
X (Ck BIZ HP. 

co) 用 户 利用 本 地 保存 的 收敛 密 钥 Kj 对 Cio 进行 解密 得 Ko = 
Decrypt(Kı, Ck), K2 对 Crs 进行 解密 得 Ks = Decrypt(Ko, 
以 此 类 推 ， 递归 解 密 得 到 所 有 的 收敛 密 钥 {Ki}， 
最 后 将 {Ki} 对 { Ci} 进行 解密 恢复 出 文件 开 。 


4 ”安全 性 分 析 
4.1 所 有 权证 明 
本 文 方案 中 ,用 户 必须 通过 PoW 协议 的 验证 才能 获得 文件 


权限 ， 而 不 是 仅仅 通过 文件 摘要 来 进行 判断 。 攻 击 者 可 能 从 其 
他 地 方 获得 文件 摘要 或 部 分 文件 内 容 , 企图 在 CSP 中 获得 整个 
文件 。 显 然 ， 在 本 文 方案 中 仅 凭 文件 摘 无 法 通过 验证 ， 以 下 讨 
论 的 是 攻击 者 拥有 部 分 文件 内 容 的 情况 。 
假设 攻击 者 拥有 的 部 分 文件 为 m 个 数据 块 ， 整 个 文件 为 n 
个 数据 块 ， 则 所 占 百分比 为 p = mm 那么 从 CSP 中 随机 选 有 
该 文件 一 个 数据 块 ， 攻 击 者 能 够 正确 响应 的 概率 为 p。 将 攻击 
者 顺利 通过 PoW 验证 记 为 A 事件 ,A 事件 发 生 的 情况 共有 两 种 : 
1) 攻击 者 响应 的 数组 通过 POW 协议 ， 记 为 R 事 件 ; 2) Bloom 
Filter 发 生 假 阳 性 误 判 ， 误 判 率 为 pp。 则 4 事件 发 生 的 概率 为 : 


E 
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P(A)= PIAN (RUR)] 
= P(A | R)P(R) + P(A | R)P(R) (2) 
= P(R) * p; P(R) 

接 下 来 分 析 尺 事件 发 生 的 概率 ， 即 攻击 者 正确 响应 数组 的 
概率 。CSP 的 挑战 数组 包含 7 个 数据 块 ， 对 攻击 者 而 言 ， 必 须 
根据 自己 拥有 的 m 个 数据 块 去 进行 响应 。 由 于 挑战 数组 是 随机 
的 ,可 计算 得 攻击 者 m 个 数据 块 中 恰好 包含 7 个 数据 块 的 概率 
为 : 


-E 
"d 

当 挑 战 数组 中 含有 攻击 者 没有 的 数据 块 时 ， 攻 击 者 只 能 猜 
测 数据 块 内 容 或 者 数据 块 的 哈 希 值 ， 猜 测 正确 的 概率 记 为 P， 
显然 Pod T O. W: 


P 


(3) 


C; 
Heide (4) 
将 式 (4) RAR (2) ， 得 ; 
C! 
P(A) -0- prey pr (5) 


为 方便 说 明 ， 设 整个 文件 共 n = 200 个 数据 块 ， 攻 击 者 已 
拥有 其 中 m= 100 个 ， 挑 战 数组 J=5 个 ，py 为 0.05， 则 根据 方 
程 4 计 算 可 得 P(A) = 0.078。 由 此 可 知 , 即使 攻击 者 拥有 该 文件 
一 半 的 数据 , 单 次 响应 通过 POW 协议 验证 的 概率 仍然 很 小 。 若 
攻击 者 不 拥有 任何 该 文件 数据 ， 则 通过 验证 的 概率 PA) = pr, 


pa 


正常 情况 下 本 文 方案 pf 可 忽略 不 计 , 对 py 的 分 析 和 探讨 可 参见 
6.1 di. 


4.2 诚实 但 好 奇 服务 器 

于 CSP 是 诚实 但 好 奇 的 , 可 能 会 查看 甚至 泄漏 用 户 存 储 
在 服务 器 中 的 数据 ， 本 文 方案 采取 收敛 加 密 来 抵抗 这 种 威胁 。 
上 传 到 云 服 务 器 之 前 ， 先 对 用 户 数 据 进行 收敛 加 密 处 理 ， 因 
渚 在 云 服务 器 中 的 是 密 文 数据 。 由 于 收敛 加 密 采 用 的 哈 希 
勇 数 是 密码 学 安全 的 ， 攻 击 者 在 没有 收敛 密 钥 的 情况 下 无 法 解 
数据 ， 而 收敛 密 钥 也 经 过 加 密 链 机 制 进行 加 密 ， 以 密 文 形式 
存储 在 服务 器 中 ， 因 此 攻击 者 无 法 获得 收敛 密 钥 。 

4.9 抵抗 污染 攻击 

在 典型 的 云 存 储 去 重 系统 中 ， 初 始 用 户 上 传 初始 文件 下 和 
文件 摘要 HCE] CSP, KHAAA RH HCP) 请 求 下 载 的 时 候 ， 
CSP 将 下 发 送 给 用 户 ; 然而 ,如 果 攻 击 者 上 传 初始 文件 FA 
件 摘要 HOE] CSP， 则 其 他 用 户 利用 H(P) 请 求 下 载 得 到 的 文 
件 将 是 下 而 不 是 ， 于 是 造成 数据 污染 。 在 本 文 方案 模型 中 ， 
若 初 始 上 传 者 发 送 的 密 文 数据 块 {Ci} 与 标签 摘要 he So XE 
么 后 继 上 传 者 将 无 法 通过 PoW 验证 ,合法 用 户 将 无 法 获得 文件 
权限 ， 也 即 发 生 数据 污染 。 因 此 ， 为 了 检查 数据 块 和 标签 的 一 
致 性 , 本 文 方案 初始 用 户 上 传 文件 时 必须 上 传 密 文 数据 块 {Ci}、 
标签 {tokeni} 和 摘要 hc, 服务 器 根据 用 户 上 传 的 {Ci} 重 新 计算 标 
签 值 和 摘要 h'.， 最 后 比较 he = h 是 否 成 立 ， 若 成 立 说 明 没有 
数据 污染 ， 否 则 说 明 存在 污染 。 因 此 本 文 方案 能 够 抵抗 污染 攻 
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击 。 
dd 是 本 文 方案 与 其 他 基于 Bloom Filter 的 PoW 去 重 方案 


的 安全 性 比较 。 表 示 能 抵抗 ，x 表 示 不 能 抵抗 。 
表 1 方案 的 安全 性 比较 


安全 性 文献 [7] 文献 [16] 本 文 
所 有 权证 明 V V y 
诚实 但 好 奇 服务 器 x y y 
污染 攻击 x x V 


5 ”性 能 分 析 


本 文 方案 和 文献 [16] 同 样 是 结合 收敛 加 密 和 Bloom Filter 
的 PoW 去 重 方 案 ， 以 下 是 两 个 方案 之 间 的 性 能 分 析 和 对 比 。 
5.1 Bloom Filter 误 判 率 

本 文 方案 主要 考虑 Bloom Filter 的 假 阳 性 误 判 。 active 状态 
表示 误 判 率 小 于 上 限 值 ，full 状态 表示 误 判 率 达 到 上 限 值 ， 记 
标准 Bloom Filter 的 误 判 率 为 Asr， 即 公式 CIO PHI prh i55] 
Æ Bloom Filter 的 误 判 率 为 fosr。 由 3.1 节 知 DBF 中 SBF 的 数 
量 为 s=|[n/c|， 若 集合 中 元 素 不 大 于 单个 SBF 的 容量 ， 即 n < 
c, IWA DBF 实际 上 就 是 一 个 SBF， 误 判 率 jpsr = fssr: 若 集 合 
中 元 素 大 于 单个 SBF 的 容量 , 即 n> c,， 那 么 DBF 中 有 8- 1 个 
SBF 是 full 状态 和 1 个 SBF 是 active 状态 。fiull 状态 的 SBF 误 
判 率 计算 方法 参考 公式 (1) ，active 状态 的 SBF 误 判 率 计算 只 
需要 把 元 素数 量 mw=n-c[n/c| 代 入 式 (1)， 可 得 fpsr 计 算 公 
式 ， 如 式 (6) 所 示 。 

文献 [16] 中 Bloom Filter 采用 的 是 SBF, 因此 误 判 率 只 有 一 
种 情况 ， 则 fssr 计算 公式 为 式 (7) 。 


üs is y , n&zc 
-h H edt) 6) 
1-0-0- ed-d-e” 105 , n>c 


fosr = 


kn 
festi- Tu de (7) 
m 


为 方便 说 明 ， 设 k=4，m = 2000，c = 200， 横 坐标 轴 代 表 
集合 中 元 素数 量 n， 纵 坐标 轴 代 表 假 阳性 误 判 率 ， 得 到 DBF 与 
SBF 的 误 判 率 对 比 图 ， 如 图 4 所 示 。 
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图 4 DBF 与 SBF 的 误 判 率 对 比 图 
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图 4 可 知 ，SBF 的 误 判 率 随 着 元 素 的 增多 而 急剧 增加 ; 

相 比 之 下 ，DBF 的 误 判 率 增加 缓慢 ， 维 持 在 一 个 可 接受 的 范围 i 
内 。 由 于 文献 [16] 采 用 的 是 SBE, 而 本 文 方案 采用 DBF, F, c 
相 比 文献 16]， 本 文 方案 的 误 判 率 更 低 。 误 判 率 与 安全 性 的 分 
析 可 参见 5.1 节 。 


M 
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加 
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5.2 密 钥 存 储 开销 10 
设 n 个 用 户 拥 有 文件 的 权限 ， 本文 方案 采用 密 钥 链 机 制 
的 思想 ， 对 于 文件 FE， 每 个 用 户 只 需要 在 本 地 存储 第 一 个 数据 | | | 
块 的 收敛 密 钥 K/， 其 余数 据 块 的 密 钥 以 密 文 形式 {Cgi} 存 储 在 0 a a ue rs "a 
服务 器 中 ， 并 且 只 需 存储 一 份 即 可 实现 跨 用 户 共享 。 当 用 户 从 ERS 
Rist F{Cr} a, AH Ki 对 {Cki} 进 行 递归 解密 即 可 得 到 5 不 同 大 小 文件 的 计算 开销 图 
全 部 收敛 密 钥 {Ki }。 由 于 密 钥 以 密 文 形式 存储 在 服务 器 中 ， 因 通过 对 比 可 知 ， 本 文 方案 与 文献 [16] 的 计算 开销 几乎 一 样 。 
此 安全 性 得 到 保证 。 文 献 [16] 方 案 中 ， 每 个 用 户 都 用 私 钼 本 文 为 了 避免 污染 攻击 (参见 5.3 节 ) ， 对 每 个 分 块 都 计算 其 


userKey 对 收敛 密 钥 进 行 加 密 ， 加 密 得 到 的 密 文 各 不 相同 ， 因 ”标签 值 ， 而 文献 [16] 直 接 计算 整个 文件 的 摘要 值 ， 导 致 本 文 的 
此 每 个 用 户 需 要 各 存储 一 份 密 钥 密 文 到 服务 器 ;并且 每 个 用 户 ” 计算 开销 略 大 一 点 。 
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在 本 地 存储 一 个 私 钥 userKey. 5.4 传输 开销 
两 个 方案 的 密 钥 存储 开销 对 比如 表 2 所 示 ， 相 比 文献 [16]， 与 计算 开销 的 分 析 一 样 , 主要 考虑 运行 PoW 协议 时 的 传输 
显然 本 文 方案 大 大 降低 了 密 钥 存 储 开 销 ， 有 效 节 省 服务 器 存储 开销。 挑战 阶段 ， 服 务 器 向 用 户 发 送 包 含 了 个 数据 块 索引 的 挑 
空间 。 战 数组 ， 用 户 向 服务 器 返回 相关 的 计算 结果 ， 这 一 部 分 传输 开 
2 密 钥 存储 开销 比较 销 本 文 方案 与 文献 [16] 相 同 。 每 一 次 通过 PoW 验证 后 , 文献 [16] 
方案 客户 端 存储 服务 器 存储 都 需要 额外 上 传 收敛 密 钥 的 密 文 ， 而 本 文 方案 无 需 重 复 上 传 收 
文献 [16] 户 私 钥 userKey n 份 收敛 密 钥 密 文 敛 密 钥 ， 关 于 密 钥 的 分 析 可 参见 6.2 节 。 因 此 ， 相 比 文献 [16]， 
本 文 Ki 1 份 收敛 密 钥 密 文 本 文 方案 传输 开销 更 小 。 
注 :n 表示 拥有 该 文件 权限 的 用 户 数 例如 ， 对 一 个 1 GB 的 文件 进行 分 块 ， 每 个 数据 块 4 KB, 
5.3 计算 开销 设 收敛 密 钥 产 生 算法 为 SHA-256， 由 于 文献 [16] 采 用 私 钥 计 算 
于 一 份 文件 只 需 上 传 一 次 而 可 能 多 次 运行 PoW 协议 , 因 ”每 个 块 的 收敛 密 钥 密 文 ， 则 计算 可 得 该 方案 额外 传输 开销 为 8 


此 主要 考虑 运行 POW 协议 时 的 计算 开销 ,也 即 发 生 去 重 时 的 情 MB. 
ERE ananena Ô ARE 

a) 客户 端 计算 开销 。 在 文献 [16] 中 ， 计 算 文 件 摘要 的 开销 
K Te 对 文件 进行 分 块 的 计算 开销 为 7;, CE 算法 的 开销 为 Tce， 针对 目前 云 存储 系统 数据 去 重 技 术 中 存在 的 缺陷 ， 本 文 基 
计算 块 标签 的 开销 为 Tas， userKey 对 密 钥 {KK} 加 密 的 开销 为 。 于 动态 Bloom filter 提出 一 种 改进 的 PoW 方案 DBF-Dedup, 2X 
Tk; 在 本 文中 ， 文 件 分 块 的 计算 开销 为 n. CE 算法 的 开销 为 ” 解 了 标准 Bloom filter 方案 中 因 元 素 增 多 而 使 得 误 判 率 快速 增 
Tcs， 计 算 块 标签 的 开销 为 Tix, 计算 块 标签 的 摘要 开销 为 7.。 ”加 的 问题 ， 同 时 结合 了 收敛 加 密 算 法 ， 不 需要 可 信 第 三 方 或 复 
则 文献 [16] 的 客户 端 计算 开销 为 7+ Ts+ Ter Tas Tk RAF 杂 的 密 钥 管理 ， 有 效 抵抗 诚实 但 好 奇 服务 器 、 污 染 攻 击 等 安全 
RN Te+ T; Tcg+ Token, (2) 服务 器 计算 开销 。Bloom Filter 威胁 。 安 全 性 与 性 能 分 析 表 明 , 本 文 方案 在 提高 安全 性 的 同时 ， 
利用 K 个 哈 希 函数 对 7 个 随机 数据 块 验证 的 计算 开销 为 了 文 ”降低 了 密 钥 存储 开销 和 传输 开销 ， 在 安全 性 和 效率 之 间 取 得 了 
献 [19] 中 计算 用 于 验证 的 Li 开销 为 Ti, 本 文中 计算 PRF 输出 结 ” 不错 的 平衡 。 
TM A Tprr，。 则 文献 [16] 的 服务 器 计算 开销 为 六 + TL, 参考 文献 ; 
本 文 方案 为 六 + Terro 

实验 环境 :AMD1.8GHz 四 核 E2-7110, 内 存 8GB, Windows [1] Cisco. Cisco global cloud index (2015-2020) [EB/OL]. (2017) 


10 系统 , 编程 语言 为 Python, 收敛 密 钥 产生 算法 采用 SHA-256, [2018-06-20]. https://www. cisco. 
其 他 哈 希 函数 都 采用 SHA- 1. com/c/dam/assets/sol/sp/gci/global-cloud-index-infographic. html. 
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